По 1260 опрошенным имеются следующие данные:
Требуется оценить влияние внешней привлекательности на уровень заработка с учётом всех остальных факторов.
Попарные диаграммы рассеяния всех количественных признаков:
Посмотрим на распределение оценок привлекательности:
В группах looks=1 и looks=5 слишком мало наблюдений. Превратим признак looks в категориальный и закодируем с помощью фиктивных переменных:
| looks | aboveavg | belowavg |
|---|---|---|
| <3 | 1 | 0 |
| 3 | 0 | 0 |
| >3 | 0 | 1 |
Распределение значений отклика:
Один человек в выборке получает 77.72$ в час, остальные — меньше 45$; удалим этого человека.
\(\frac{\max y}{\min y}=\) 40.8529412 \(>10\), поэтому найдём преобразование отклика методом Бокса-Кокса:
Возьмём \(\lambda=0\), то есть, будем строить регрессию логарифма отклика.
Построим линейную модель по всем признакам.
Её остатки:
| Критерий | p |
|---|---|
| Шапиро-Уилка | 8.519878910^{-7} |
| Уилкоксона | 0.9416491 |
| Бройша-Пагана | 7.551136710^{-5} |
ненормальны, поэтому для проверки несмещённости используем критерий знаковых рангов Уилкоксона, и гетероскедастичны, поэтому оценку значимости признаков будем делать с дисперсиями Уайта; также будем делать поправку на множественность.
##
## Call:
## lm(formula = logwage ~ ., data = data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.3712 -0.2769 0.0006 0.2750 1.9798
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|) Adjusted p-value
## (Intercept) 4.515e-01 9.531e-02 4.737e+00 2.415e-06 NA
## exper 1.381e-02 1.196e-03 1.155e+01 2.268e-29 0.000
## union 1.785e-01 2.996e-02 5.957e+00 3.331e-09 0.000
## goodhlth 7.850e-02 5.341e-02 1.470e+00 1.419e-01 0.896
## black -9.888e-02 5.168e-02 -1.913e+00 5.594e-02 0.419
## female -3.938e-01 3.105e-02 -1.268e+01 9.204e-35 0.000
## married 4.253e-02 3.076e-02 1.383e+00 1.670e-01 0.807
## service -1.505e-01 3.233e-02 -4.656e+00 3.562e-06 0.000
## educ 7.994e-02 5.482e-03 1.458e+01 1.386e-44 0.000
## aboveavg -4.147e-03 3.004e-02 -1.380e-01 8.902e-01 1.000
## belowavg -1.305e-01 4.145e-02 -3.148e+00 1.682e-03 0.011
##
## Residual standard error: 0.465 on 1248 degrees of freedom
## Multiple R-squared: 0.3835, Adjusted R-squared: 0.3785
## F-statistic: 77.63 on 10 and 1248 DF, p-value: < 2.2e-16
Визуальный анализ остатков:
В остатках наблюдается квадратичная зависимость от опыта работы.
Добавим в модель 1 квадрат опыта работы.
Её остатки:
| Критерий | p |
|---|---|
| Шапиро-Уилка | 1.407155410^{-7} |
| Уилкоксона | 0.9618315 |
| Бройша-Пагана | 4.192584410^{-6} |
ненормальны и гетероскедастичны. Результаты проверки гипотез о значимости всех признаков с поправкой на множественность и дисперсиями Уайта:
##
## Call:
## lm(formula = logwage ~ . + I(exper^2), data = data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.41092 -0.28236 0.01577 0.26985 1.90502
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|) Adjusted p-value
## (Intercept) 3.424e-01 9.541e-02 3.588e+00 3.457e-04 NA
## exper 4.038e-02 4.346e-03 9.290e+00 6.637e-20 0.000
## union 1.710e-01 2.953e-02 5.793e+00 8.733e-09 0.000
## goodhlth 7.159e-02 5.259e-02 1.361e+00 1.737e-01 0.947
## black -8.310e-02 5.095e-02 -1.631e+00 1.031e-01 0.675
## female -3.936e-01 3.057e-02 -1.287e+01 1.051e-35 0.000
## married 1.010e-02 3.071e-02 3.290e-01 7.422e-01 1.000
## service -1.599e-01 3.186e-02 -5.018e+00 5.970e-07 0.000
## educ 7.580e-02 5.437e-03 1.394e+01 3.672e-41 0.000
## aboveavg -2.487e-03 2.958e-02 -8.407e-02 9.330e-01 1.000
## belowavg -1.352e-01 4.082e-02 -3.313e+00 9.492e-04 0.007
## I(exper^2) -6.118e-04 9.634e-05 -6.351e+00 2.996e-10 0.000
##
## Residual standard error: 0.4578 on 1247 degrees of freedom
## Multiple R-squared: 0.4028, Adjusted R-squared: 0.3975
## F-statistic: 76.46 on 11 and 1247 DF, p-value: < 2.2e-16
Незначимые признаки: здоровье, цвет кожи, семейное положение, привлекательность выше среднего. Прежде, чем удалять лишние признаки, проверим, не входят ли они в значимые попарные взаимодействия:
## Single term additions
##
## Model:
## logwage ~ exper + union + goodhlth + black + female + married +
## service + educ + aboveavg + belowavg + I(exper^2)
## Df Sum of Sq RSS AIC F value Pr(>F)
## <none> 261.40 -1955.2
## exper:union 1 0.44869 260.95 -1955.3 2.1424 0.1435298
## exper:goodhlth 1 0.00045 261.40 -1953.2 0.0022 0.9628754
## exper:black 1 0.12543 261.28 -1953.8 0.5982 0.4394187
## exper:female 1 2.38436 259.02 -1964.7 11.4699 0.0007294 ***
## exper:married 1 1.12955 260.27 -1958.6 5.4075 0.0202106 *
## exper:service 1 0.93793 260.46 -1957.7 4.4869 0.0343538 *
## exper:educ 1 0.00193 261.40 -1953.2 0.0092 0.9235768
## exper:aboveavg 1 0.01638 261.38 -1953.2 0.0781 0.7799812
## exper:belowavg 1 0.01523 261.39 -1953.2 0.0726 0.7876568
## exper:I(exper^2) 1 0.44697 260.95 -1955.3 2.1342 0.1443004
## union:goodhlth 1 0.17345 261.23 -1954.0 0.8273 0.3632270
## union:black 1 0.00442 261.40 -1953.2 0.0211 0.8846047
## union:female 1 0.36002 261.04 -1954.9 1.7184 0.1901352
## union:married 1 0.04145 261.36 -1953.4 0.1976 0.6567382
## union:service 1 0.00679 261.39 -1953.2 0.0323 0.8573023
## union:educ 1 0.20255 261.20 -1954.1 0.9662 0.3258127
## union:aboveavg 1 0.01096 261.39 -1953.2 0.0522 0.8192470
## union:belowavg 1 0.12107 261.28 -1953.8 0.5774 0.4474952
## union:I(exper^2) 1 0.69193 260.71 -1956.5 3.3069 0.0692283 .
## goodhlth:black 1 0.78641 260.62 -1957.0 3.7598 0.0527241 .
## goodhlth:female 1 0.62287 260.78 -1956.2 2.9760 0.0847533 .
## goodhlth:married 1 0.68083 260.72 -1956.5 3.2537 0.0715036 .
## goodhlth:service 1 0.17097 261.23 -1954.0 0.8155 0.3666825
## goodhlth:educ 1 0.22292 261.18 -1954.2 1.0635 0.3026250
## goodhlth:aboveavg 1 0.44717 260.95 -1955.3 2.1351 0.1442103
## goodhlth:belowavg 1 0.24594 261.16 -1954.3 1.1734 0.2789103
## goodhlth:I(exper^2) 1 0.04039 261.36 -1953.4 0.1926 0.6608580
## black:female 1 2.52500 258.88 -1965.4 12.1531 0.0005071 ***
## black:married 1 0.28758 261.11 -1954.5 1.3723 0.2416410
## black:service 1 0.26454 261.14 -1954.4 1.2622 0.2614438
## black:educ 1 0.09938 261.30 -1953.6 0.4739 0.4913352
## black:aboveavg 1 0.02301 261.38 -1953.3 0.1097 0.7405774
## black:belowavg 1 0.19482 261.21 -1954.1 0.9293 0.3352298
## black:I(exper^2) 1 0.01649 261.38 -1953.2 0.0786 0.7792565
## female:married 1 2.56500 258.84 -1965.6 12.3475 0.0004574 ***
## female:service 1 0.64607 260.76 -1956.3 3.0872 0.0791555 .
## female:educ 1 0.63386 260.77 -1956.2 3.0287 0.0820500 .
## female:aboveavg 1 0.41335 260.99 -1955.2 1.9734 0.1603367
## female:belowavg 1 0.00222 261.40 -1953.2 0.0106 0.9180522
## female:I(exper^2) 1 1.65055 259.75 -1961.1 7.9175 0.0049728 **
## married:service 1 0.67719 260.73 -1956.4 3.2363 0.0722658 .
## married:educ 1 0.17610 261.23 -1954.0 0.8400 0.3595842
## married:aboveavg 1 0.41753 260.98 -1955.2 1.9934 0.1582390
## married:belowavg 1 0.03982 261.36 -1953.4 0.1898 0.6631173
## married:I(exper^2) 1 1.37303 260.03 -1959.8 6.5792 0.0104337 *
## service:educ 1 0.04883 261.35 -1953.4 0.2328 0.6295549
## service:aboveavg 1 0.06057 261.34 -1953.5 0.2888 0.5911112
## service:belowavg 1 0.00144 261.40 -1953.2 0.0069 0.9339333
## service:I(exper^2) 1 0.63868 260.76 -1956.2 3.0518 0.0808946 .
## educ:aboveavg 1 0.04114 261.36 -1953.4 0.1961 0.6579475
## educ:belowavg 1 0.01961 261.38 -1953.3 0.0935 0.7598312
## educ:I(exper^2) 1 0.06610 261.34 -1953.5 0.3152 0.5746347
## aboveavg:belowavg 0 0.00000 261.40 -1955.2
## aboveavg:I(exper^2) 1 0.00002 261.40 -1953.2 0.0001 0.9921716
## belowavg:I(exper^2) 1 0.05738 261.34 -1953.4 0.2736 0.6010267
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Визуальный анализ остатков не показывает никаких существенных особенностей:
Удалим из модели 2 незначимые признаки и добавим межфакторное взаимодействие пола и опыта работы.
Её остатки:
| Критерий | p |
|---|---|
| Шапиро-Уилка | 3.007582410^{-7} |
| Уилкоксона | 0.9765989 |
| Бройша-Пагана | 3.05815510^{-6} |
ненормальны и гетероскедастичны. Результаты проверки гипотез о значимости всех признаков с поправкой на множественность и дисперсиями Уайта:
##
## Call:
## lm(formula = logwage ~ exper + exper * female + female + union +
## service + educ + aboveavg + belowavg + I(exper^2), data = data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.48289 -0.28482 0.01858 0.27788 1.85005
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|) Adjusted p-value
## (Intercept) 3.126e-01 8.225e-02 3.801e+00 1.511e-04 NA
## exper 4.681e-02 4.533e-03 1.033e+01 4.750e-24 0.000
## female -2.607e-01 5.024e-02 -5.189e+00 2.467e-07 0.000
## union 1.719e-01 2.941e-02 5.846e+00 6.431e-09 0.000
## service -1.607e-01 3.170e-02 -5.071e+00 4.555e-07 0.000
## educ 7.764e-02 5.356e-03 1.450e+01 3.950e-44 0.000
## aboveavg -3.691e-03 2.944e-02 -1.254e-01 9.002e-01 1.000
## belowavg -1.337e-01 4.061e-02 -3.292e+00 1.021e-03 0.006
## I(exper^2) -7.065e-04 9.682e-05 -7.297e+00 5.227e-13 0.000
## exper:female -8.935e-03 2.542e-03 -3.515e+00 4.551e-04 0.010
##
## Residual standard error: 0.4561 on 1249 degrees of freedom
## Multiple R-squared: 0.4064, Adjusted R-squared: 0.4021
## F-statistic: 95 on 9 and 1249 DF, p-value: < 2.2e-16
Значимы все признаки, кроме индикатора привлекательности выше среднего.
Визуальный анализ остатков не показывает никаких существенных особенностей:
Критерий Давидсона-Маккинона показывает, что модель 3 лучше модели 2:
## J test
##
## Model 1: logwage ~ exper + union + goodhlth + black + female + married +
## service + educ + aboveavg + belowavg + I(exper^2)
## Model 2: logwage ~ exper + exper * female + female + union + service +
## educ + aboveavg + belowavg + I(exper^2)
## Estimate Std. Error t value Pr(>|t|)
## M1 + fitted(M2) 0.97487 0.28785 3.3867 0.0007294 ***
## M2 + fitted(M1) 0.88205 0.45395 1.9431 0.0522315 .
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Попробуем оставить в модели 2 цвет кожи и семейное положение, чтобы добавить их взаимодействия с полом. Как и в модели 3, добавим взаимодействие пола с опытом работы, а состояние здоровья удалим.
Её остатки:
| Критерий | p |
|---|---|
| Шапиро-Уилка | 1.793777410^{-6} |
| Уилкоксона | 0.9327109 |
| Бройша-Пагана | 2.834525210^{-5} |
ненормальны и гетероскедастичны. Результаты проверки гипотез о значимости всех признаков с поправкой на множественность и дисперсиями Уайта:
##
## Call:
## lm(formula = logwage ~ exper + I(exper^2) + exper * female +
## female + black + female * black + married + female * married +
## union + service + educ + aboveavg + belowavg, data = data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.50715 -0.28320 0.01463 0.27576 1.88275
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 3.146e-01 8.558e-02 3.676e+00 2.470e-04
## exper 4.475e-02 4.689e-03 9.544e+00 7.004e-21
## I(exper^2) -6.736e-04 9.846e-05 -6.842e+00 1.225e-11
## female -1.954e-01 5.984e-02 -3.266e+00 1.120e-03
## black -2.508e-01 7.256e-02 -3.456e+00 5.672e-04
## married 7.031e-02 4.232e-02 1.661e+00 9.690e-02
## union 1.782e-01 2.923e-02 6.095e+00 1.453e-09
## service -1.603e-01 3.148e-02 -5.093e+00 4.074e-07
## educ 7.573e-02 5.370e-03 1.410e+01 5.285e-42
## aboveavg -1.059e-03 2.927e-02 -3.619e-02 9.711e-01
## belowavg -1.353e-01 4.042e-02 -3.348e+00 8.382e-04
## exper:female -8.188e-03 2.579e-03 -3.175e+00 1.534e-03
## female:black 3.295e-01 9.981e-02 3.301e+00 9.899e-04
## female:married -1.638e-01 6.050e-02 -2.707e+00 6.885e-03
## Adjusted p-value
## (Intercept) NA
## exper 0.000
## I(exper^2) 0.000
## female 0.010
## black 0.006
## married 0.612
## union 0.000
## service 0.000
## educ 0.000
## aboveavg 1.000
## belowavg 0.007
## exper:female 0.037
## female:black 0.008
## female:married 0.052
##
## Residual standard error: 0.4527 on 1245 degrees of freedom
## Multiple R-squared: 0.4172, Adjusted R-squared: 0.4111
## F-statistic: 68.56 on 13 and 1245 DF, p-value: < 2.2e-16
Визуальный анализ остатков:
Сравним с моделью 3 по критерию Вальда с дисперсиями Уайта:
## Wald test
##
## Model 1: logwage ~ exper + I(exper^2) + exper * female + female + black +
## female * black + married + female * married + union + service +
## educ + aboveavg + belowavg
## Model 2: logwage ~ exper + exper * female + female + union + service +
## educ + aboveavg + belowavg + I(exper^2)
## Res.Df Df F Pr(>F)
## 1 1245
## 2 1249 -4 6.1382 6.848e-05 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Получается значимо лучше.
Посмотрим, не нужно ли добавить ещё какие-то взаимодействия:
## Single term additions
##
## Model:
## logwage ~ exper + I(exper^2) + exper * female + female + black +
## female * black + married + female * married + union + service +
## educ + aboveavg + belowavg
## Df Sum of Sq RSS AIC F value Pr(>F)
## <none> 255.10 -1981.9
## exper:I(exper^2) 1 0.57827 254.52 -1982.8 2.8264 0.09298 .
## exper:black 1 0.04175 255.05 -1980.1 0.2036 0.65187
## exper:married 1 0.17797 254.92 -1980.8 0.8685 0.35156
## exper:union 1 0.72073 254.38 -1983.5 3.5247 0.06070 .
## exper:service 1 0.46050 254.63 -1982.2 2.2497 0.13389
## exper:educ 1 0.00551 255.09 -1979.9 0.0269 0.86986
## exper:aboveavg 1 0.04164 255.05 -1980.1 0.2031 0.65230
## exper:belowavg 1 0.00288 255.09 -1979.9 0.0141 0.90561
## I(exper^2):female 1 0.11380 254.98 -1980.5 0.5552 0.45634
## I(exper^2):black 1 0.22088 254.88 -1981.0 1.0781 0.29933
## I(exper^2):married 1 0.29017 254.81 -1981.3 1.4166 0.23418
## I(exper^2):union 1 0.88193 254.21 -1984.3 4.3157 0.03797 *
## I(exper^2):service 1 0.32610 254.77 -1981.5 1.5923 0.20724
## I(exper^2):educ 1 0.14825 254.95 -1980.6 0.7234 0.39520
## I(exper^2):aboveavg 1 0.00573 255.09 -1979.9 0.0279 0.86729
## I(exper^2):belowavg 1 0.00062 255.09 -1979.9 0.0030 0.95602
## female:union 1 0.54916 254.55 -1982.6 2.6838 0.10163
## female:service 1 0.74277 254.35 -1983.6 3.6328 0.05688 .
## female:educ 1 0.56298 254.53 -1982.7 2.7515 0.09741 .
## female:aboveavg 1 0.12989 254.97 -1980.5 0.6338 0.42613
## female:belowavg 1 0.01115 255.09 -1980.0 0.0544 0.81562
## black:married 1 0.02461 255.07 -1980.0 0.1200 0.72908
## black:union 1 0.28846 254.81 -1981.3 1.4083 0.23557
## black:service 1 0.00020 255.10 -1979.9 0.0010 0.97492
## black:educ 1 0.30599 254.79 -1981.4 1.4940 0.22183
## black:aboveavg 1 0.00194 255.09 -1979.9 0.0094 0.92259
## black:belowavg 1 0.47605 254.62 -1982.3 2.3258 0.12750
## married:union 1 0.00588 255.09 -1979.9 0.0287 0.86560
## married:service 1 0.17674 254.92 -1980.8 0.8625 0.35322
## married:educ 1 0.22997 254.87 -1981.0 1.1225 0.28960
## married:aboveavg 1 0.25378 254.84 -1981.2 1.2388 0.26591
## married:belowavg 1 0.02162 255.07 -1980.0 0.1055 0.74543
## union:service 1 0.00125 255.09 -1979.9 0.0061 0.93782
## union:educ 1 0.10673 254.99 -1980.4 0.5207 0.47069
## union:aboveavg 1 0.03412 255.06 -1980.1 0.1664 0.68340
## union:belowavg 1 0.09441 255.00 -1980.4 0.4606 0.49747
## service:educ 1 0.09434 255.00 -1980.4 0.4602 0.49765
## service:aboveavg 1 0.04436 255.05 -1980.1 0.2164 0.64191
## service:belowavg 1 0.00307 255.09 -1979.9 0.0150 0.90264
## educ:aboveavg 1 0.03902 255.06 -1980.1 0.1903 0.66273
## educ:belowavg 1 0.05888 255.04 -1980.2 0.2872 0.59211
## aboveavg:belowavg 0 0.00000 255.10 -1981.9
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Взаимодействия квадрата опыта сложно интерпретировать, поэтому остановимся на полученной модели.
В предыдущей модели семейное положение и его взаимодействия незначимы по отдельности; посмотрим, можно ли удалить их оба (критерий Вальда с дисперсиями Уайта):
##
## Call:
## lm(formula = logwage ~ exper + I(exper^2) + exper * female +
## female + black + female * black + union + service + educ +
## aboveavg + belowavg, data = data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.49535 -0.29037 0.02078 0.27333 1.83344
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|) Adjusted p-value
## (Intercept) 3.493e-01 8.306e-02 4.205e+00 2.796e-05 NA
## exper 4.602e-02 4.520e-03 1.018e+01 1.913e-23 0.000
## I(exper^2) -6.860e-04 9.659e-05 -7.102e+00 2.064e-12 0.000
## female -2.824e-01 5.043e-02 -5.599e+00 2.656e-08 0.000
## black -2.677e-01 7.205e-02 -3.715e+00 2.120e-04 0.001
## union 1.780e-01 2.929e-02 6.076e+00 1.630e-09 0.000
## service -1.587e-01 3.154e-02 -5.030e+00 5.617e-07 0.000
## educ 7.597e-02 5.376e-03 1.413e+01 3.552e-42 0.000
## aboveavg 8.770e-04 2.931e-02 2.993e-02 9.761e-01 1.000
## belowavg -1.406e-01 4.046e-02 -3.475e+00 5.279e-04 0.004
## exper:female -9.096e-03 2.531e-03 -3.594e+00 3.379e-04 0.008
## female:black 3.600e-01 9.930e-02 3.626e+00 3.000e-04 0.002
##
## Residual standard error: 0.4536 on 1247 degrees of freedom
## Multiple R-squared: 0.4137, Adjusted R-squared: 0.4086
## F-statistic: 80.01 on 11 and 1247 DF, p-value: < 2.2e-16
## Wald test
##
## Model 1: logwage ~ exper + I(exper^2) + exper * female + female + black +
## female * black + married + female * married + union + service +
## educ + aboveavg + belowavg
## Model 2: logwage ~ exper + I(exper^2) + exper * female + female + black +
## female * black + union + service + educ + aboveavg + belowavg
## Res.Df Df F Pr(>F)
## 1 1245
## 2 1247 -2 4.0709 0.01729 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Модель получается значимо хуже. Удалим тогда только взаимодействие пола и семейного положения.
##
## Call:
## lm(formula = logwage ~ exper + I(exper^2) + exper * female +
## female + black + female * black + married + union + service +
## educ + aboveavg + belowavg, data = data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.49482 -0.28920 0.01955 0.27611 1.83283
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|) Adjusted p-value
## (Intercept) 3.537e-01 8.457e-02 4.182e+00 3.092e-05 NA
## exper 4.634e-02 4.664e-03 9.937e+00 1.922e-22 0.000
## I(exper^2) -6.913e-04 9.850e-05 -7.018e+00 3.675e-12 0.000
## female -2.829e-01 5.049e-02 -5.603e+00 2.588e-08 0.000
## black -2.696e-01 7.241e-02 -3.724e+00 2.052e-04 0.001
## married -8.572e-03 3.077e-02 -2.786e-01 7.806e-01 1.000
## union 1.780e-01 2.930e-02 6.076e+00 1.635e-09 0.000
## service -1.586e-01 3.156e-02 -5.026e+00 5.736e-07 0.000
## educ 7.591e-02 5.383e-03 1.410e+01 5.315e-42 0.000
## aboveavg 5.962e-04 2.933e-02 2.032e-02 9.838e-01 1.000
## belowavg -1.407e-01 4.048e-02 -3.477e+00 5.240e-04 0.004
## exper:female -9.199e-03 2.558e-03 -3.596e+00 3.362e-04 0.008
## female:black 3.608e-01 9.938e-02 3.631e+00 2.940e-04 0.002
##
## Residual standard error: 0.4538 on 1246 degrees of freedom
## Multiple R-squared: 0.4138, Adjusted R-squared: 0.4081
## F-statistic: 73.29 on 12 and 1246 DF, p-value: < 2.2e-16
## Wald test
##
## Model 1: logwage ~ exper + I(exper^2) + exper * female + female + black +
## female * black + married + female * married + union + service +
## educ + aboveavg + belowavg
## Model 2: logwage ~ exper + I(exper^2) + exper * female + female + black +
## female * black + married + union + service + educ + aboveavg +
## belowavg
## Res.Df Df F Pr(>F)
## 1 1245
## 2 1246 -1 8.0259 0.004686 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Снова становится значимо хуже. Кроме того, модифицированный коэффициент детерминации убывает. Вернёмся к модели 4.
Посмотрим на влиятельные наблюдения: Удалим наблюдения с расстоянием Кука больше 0.015 (порог выбран визуально) и перенастроим модель 4.
Сравним коэффициенты новой модели и модели 4:
## All data Filtered data
## (Intercept) 0.3145914333 0.265356323
## exper 0.0447480234 0.047405332
## I(exper^2) -0.0006736416 -0.000728978
## female -0.1954470198 -0.148434764
## black -0.2507531071 -0.212021582
## married 0.0703086359 0.081285229
## union 0.1781585550 0.180545883
## service -0.1603376207 -0.172108720
## educ 0.0757252568 0.077043794
## aboveavg -0.0010591769 -0.004225053
## belowavg -0.1353339064 -0.131002707
## exper:female -0.0081883370 -0.010172001
## female:black 0.3294837001 0.243986129
## female:married -0.1637757690 -0.179333594
некоторые коэффициенты существенно изменились, следовательно, удаление влиятельных наблюдений имело смысл.
Остатки новой модели:
| Критерий | p |
|---|---|
| Шапиро-Уилка | 3.269494410^{-5} |
| Уилкоксона | 0.9937559 |
| Бройша-Пагана | 1.282303410^{-4} |
ненормальны и гетероскедастичны. Результаты проверки гипотез о значимости всех признаков с поправкой на множественность и дисперсиями Уайта:
##
## Call:
## lm(formula = logwage ~ exper + I(exper^2) + exper * female +
## female + black + female * black + married + female * married +
## union + service + educ + aboveavg + belowavg, data = data2)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.51348 -0.27989 0.01137 0.27416 1.81393
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 2.654e-01 8.507e-02 3.119e+00 1.854e-03
## exper 4.741e-02 4.669e-03 1.015e+01 2.524e-23
## I(exper^2) -7.290e-04 9.812e-05 -7.429e+00 2.023e-13
## female -1.484e-01 5.963e-02 -2.489e+00 1.294e-02
## black -2.120e-01 7.234e-02 -2.931e+00 3.442e-03
## married 8.129e-02 4.185e-02 1.942e+00 5.233e-02
## union 1.805e-01 2.886e-02 6.257e+00 5.393e-10
## service -1.721e-01 3.115e-02 -5.526e+00 3.999e-08
## educ 7.704e-02 5.323e-03 1.447e+01 5.570e-44
## aboveavg -4.225e-03 2.894e-02 -1.460e-01 8.839e-01
## belowavg -1.310e-01 3.988e-02 -3.285e+00 1.047e-03
## exper:female -1.017e-02 2.591e-03 -3.925e+00 9.136e-05
## female:black 2.440e-01 9.994e-02 2.441e+00 1.477e-02
## female:married -1.793e-01 5.979e-02 -2.999e+00 2.760e-03
## Adjusted p-value
## (Intercept) NA
## exper 0.000
## I(exper^2) 0.000
## female 0.071
## black 0.021
## married 0.342
## union 0.000
## service 0.000
## educ 0.000
## aboveavg 1.000
## belowavg 0.009
## exper:female 0.001
## female:black 0.067
## female:married 0.017
##
## Residual standard error: 0.4463 on 1241 degrees of freedom
## Multiple R-squared: 0.4284, Adjusted R-squared: 0.4224
## F-statistic: 71.54 on 13 and 1241 DF, p-value: < 2.2e-16
Визуальный анализ остатков:
Проверим, нельзя ли теперь удалить взаимодействие пола с цветом кожи или семейным положением:
##
## Call:
## lm(formula = logwage ~ exper + I(exper^2) + exper * female +
## female + black + female * married + married + union + service +
## educ + aboveavg + belowavg, data = data2)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.51107 -0.28687 0.01251 0.27307 1.81841
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 2.490e-01 8.497e-02 2.931e+00 3.445e-03
## exper 4.759e-02 4.677e-03 1.017e+01 2.078e-23
## I(exper^2) -7.371e-04 9.826e-05 -7.501e+00 1.201e-13
## female -1.207e-01 5.866e-02 -2.058e+00 3.976e-02
## black -8.506e-02 5.039e-02 -1.688e+00 9.162e-02
## married 9.145e-02 4.173e-02 2.192e+00 2.859e-02
## union 1.774e-01 2.888e-02 6.143e+00 1.091e-09
## service -1.728e-01 3.121e-02 -5.536e+00 3.782e-08
## educ 7.739e-02 5.332e-03 1.451e+01 3.305e-44
## aboveavg -7.912e-03 2.896e-02 -2.732e-01 7.847e-01
## belowavg -1.282e-01 3.994e-02 -3.210e+00 1.360e-03
## exper:female -1.003e-02 2.596e-03 -3.863e+00 1.177e-04
## female:married -1.965e-01 5.950e-02 -3.303e+00 9.850e-04
## Adjusted p-value
## (Intercept) NA
## exper 0.000
## I(exper^2) 0.000
## female 0.225
## black 0.502
## married 0.175
## union 0.000
## service 0.000
## educ 0.000
## aboveavg 1.000
## belowavg 0.011
## exper:female 0.001
## female:married 0.005
##
## Residual standard error: 0.4472 on 1242 degrees of freedom
## Multiple R-squared: 0.4256, Adjusted R-squared: 0.4201
## F-statistic: 76.7 on 12 and 1242 DF, p-value: < 2.2e-16
## Wald test
##
## Model 1: logwage ~ exper + I(exper^2) + exper * female + female + black +
## female * black + married + female * married + union + service +
## educ + aboveavg + belowavg
## Model 2: logwage ~ exper + I(exper^2) + exper * female + female + black +
## female * married + married + union + service + educ + aboveavg +
## belowavg
## Res.Df Df F Pr(>F)
## 1 1241
## 2 1242 -1 7.5684 0.006026 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## Wald test
##
## Model 1: logwage ~ exper + I(exper^2) + exper * female + female + black +
## female * black + married + female * married + union + service +
## educ + aboveavg + belowavg
## Model 2: logwage ~ exper + I(exper^2) + exper * female + female + black +
## female * married + married + union + service + educ + aboveavg +
## belowavg
## Res.Df Df F Pr(>F)
## 1 1241
## 2 1242 -1 7.5684 0.006026 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Нельзя.
Итоговая модель (№6) построена по 1255 из 1260 исходных объектов и объясняет 43% вариации логарифма отклика:
При интересующих нас факторах привлекательности стоят следующие коэффициенты:
## aboveavg belowavg
## -0.004225053 -0.131002707
## 2.5 % 97.5 %
## aboveavg -0.06099884 0.05254873
## belowavg -0.20923385 -0.05277157
Таким образом, с учётом дополнительных факторов представители генеральной совокупности, из которой взята выборка, получают на 13% меньше (доверительный интервал (5, 21)%, p=0.0010473), если их привлекательность ниже средней, и на 0.4% меньше (доверительный интервал (-5, 6), p=0.8839442), если их привлекательность выше средней.
Hamermesh D.S., Biddle J.E. (1994) Beauty and the Labor Market, American Economic Review, 84, 1174–1194.